




# 数据说明
# 数据集包含一家大公司的历史员工资料，其中每条记录都是一名员工。共计15,002条员工记录。

# 数据集共10个字段，包括员工满意度、绩效评估、项目数、月工作时长、司龄、是否有工伤（0为False，1为True）、是否离职（0为False，1为True）、
#   3年内是否晋升、职位、工资（已将原数据集中的Columns转换为中文）。

# 数据地址：https://www.kaggle.com/datasets/jacksonchou/hr-data-for-analytics





# 分析思路

# 明确问题
# 问题：如何降低公司员工流失率？
# 通过人资部门提供的近十年公司员工信息表，我们对员工流失率进行分析，发现员工流失率23.81%。那么，有哪些因素影响了员工的流失？
# 我们将如何降低公司员工的流失率？这是本作品所要分析的问题。




# 分析框架
# 流失率 = 流失人数/总人数，在总人数不变的情况下，降低流失率需要降低流失人数。









# 数据清洗
# ①　列重命名：将英文字段统一转换中文字段描述。
# ②　删除空值：对数据集各字段列进行检查，发现“员工满意度”仅15,000条记录，存在空值；删除空值。
# ③　删除异常值：对数据集字段理解，满意度区间在0到1之间，查找是否有区间范围外数据，并删除；
#       经条件查找未发现异常值；对“职位”进行筛选，发现“sales”与“sale”（仅1条），判断为录入错误所致；删除。
# ④　删除重复值：未发现重复值；





# https://bbs.fanruan.com/thread-138939-1-1.html